草庐IT

HTML 文本格式化

全部标签

对于体育新闻中文文本关键字提取有哪些关键字提取算法及其步骤

对于体育新闻中文文本的关键字提取,常用的算法包括TF-IDF、TextRank和LDA等。它们的基本步骤如下:1.TF-IDF算法: -将文本进行分词和词性标注处理。-统计每个词在文本中的词频(TF)。-计算每个词在整个语料库中出现的文档频率(DF)和逆文档频率(IDF)。-计算每个词的TF-IDF值,并按照值的大小进行排序,选择排名前几的词作为关键字。2.TextRank算法:-将文本进行分词和词性标注处理。-将分词结果转化成图模型,每个词语为节点,根据词语之间的共现关系建立边。-对图模型进行迭代计算,计算每个节点的PageRank值,表示该节点的重要性。-选择排名前几的节点作为关键字。3.

ruby - 使用 Nokogiri 从 HTML 获取父元素

我有以下HTML,我想获取文档中的父项。我使用Nokogiri进行解析:j_text="abcpqr>examplefindbyIDzzzznnnnnsfds"我做到了:doc=Nokogiri::HTML(j_text)现在我想要来自HTML文本上方的父元素,即,,,使用Nokogiri,我该怎么做? 最佳答案 当您在Nokogiri中加载该HTML片段时,它会自动将元素插入到具有嵌套“body”元素的根级“html”元素中。因此,您提供的HTML片段中节点的父级将是“正文”:doc=Nokogiri::HTML(j_text)d

Ruby 正则表达式 - 用文本中间的空格替换点

我有一个很长的文本,我想用空格替换其中的点,但只能在文本的中间。例如:Domain:...................google.com我需要这样:Domain:google.com我发现了这个用单个空格替换点的正则表达式:str.gsub!(/(?但这还不够,因为它会产生:Domain:google.com我需要保留与点一样多的空格。你会如何解决? 最佳答案 你快到了,你的正则表达式没问题,只需使用String#gsub的block版本计算替换匹配的长度:▶str='Domain:...................goo

ruby-on-rails - Rails/Ruby - 什么 gem 可以创建带有文本的图像?

例子我有一张图片。在我的Controller中,我的示例有@name="Jon"现在我想创建一个新图像,就像我得到的图像一样,图像中间的名字是“Jon”。我希望能够指定应该使用的字体大小、颜色和字体系列以及文本的位置。什么gem能够做到这一点? 最佳答案 基本的rmagick解决方案还不错,6行。下面给你一个黄色的矩形,中间有TEXT。您可以尝试使用字体和磅值。中心调用在那里,因为我认为它在中间看起来更好。require'RMagick'canvas=Magick::Image.new(300,100){self.backgroun

ruby - 使用 open-uri 和 nokogiri 在完全加载之前读取 HTML

我正在使用open-uri和nokogiri以及ruby​​来进行一些简单的网络爬虫。有一个问题,有时html在完全加载之前就被读取了。在这种情况下,我无法获取加载图标和导航栏以外的任何内容。告诉open-uri或nokogiri等待页面完全加载的最佳方法是什么?目前我的脚本是这样的:require'nokogiri'require'open-uri'url="https://www.the-page-i-wanna-crawl.com"doc=Nokogiri::HTML(open(url,ssl_verify_mode:OpenSSL::SSL::VERIFY_NONE))puts

ruby - 如何将 float 格式化为一定数量的小数和整数?

我正在尝试将Ruby中的float格式化为四位数字,包括小数点。例如:1=>01.002.4=>02.401.4455=>01.45现在,我正在尝试按如下方式格式化float:str_result="%.2f"%result这成功地将小数位数限制为两位。我还知道:str_result="%2d"%result它成功地将1转换为01,但丢失了小数位。我试着像这样组合这些:str_result="%2.2f"%result没有明显效果。它与%.2f具有相同的结果。有没有办法强制Ruby将字符串格式化为这种四位数格式? 最佳答案 您可以使

ruby-on-rails - ruby 中的树结构与父子数组格式没有 gem ?

我有一个数组,其中包含这样的项目列表arr=[{:id=>1,:title=>"A",:parent_id=>nil},{:id=>2,:title=>"B",:parent_id=>nil},{:id=>3,:title=>"A1",:parent_id=>1},{:id=>4,:title=>"A2",:parent_id=>1},{:id=>5,:title=>"A11",:parent_id=>3},{:id=>6,:title=>"12",:parent_id=>3},{:id=>7,:title=>"A2=121",:parent_id=>6},{:id=>8,:title

ruby - 格式化日期时间字符串

我需要我的字符串"Wed,26May201714:00:00+0800"格式为2017-05-2614:00:00+0800(可以将其保留为字符串但不是强制性的)。什么是最快的方法? 最佳答案 parse字符串并通过strftime重新格式化它:string='Wed,26May201714:00:00+0800'Time.parse(string).strftime('%F%T%z')#=>"2017-05-2614:00:00+0800" 关于ruby-格式化日期时间字符串,我们在S

ruby - 从用户提交的文本中提取关键字的好方法是什么?

我正在构建一个网站,该网站允许用户通过以图形方式表示支持和反对特定问题的论点来理解辩论。(Wrangl)我想对这些辩论进行分类,以便更容易找到它们并将它们联系起来。我不想让发起辩论的人在他们看到任何好处之前添加标签和类别,从而激怒他们,所以我正在寻找一种自动提取关键字的方法。有什么好的方法可以利用辩论的标题和描述(以及可能的论点本身的内容,一旦有的话)来提取,比如说,可以用作元数据将类似辩论联系在一起的十个强关键字,或者即使是在可以查看辩论的HTML页面头部的“元”关键字标记的内容。例如。DatamappervsActiveRecord该网站使用Ruby和Sinatra编码,使用Dat

ruby - 不兼容的 marshal 文件格式(无法读取)需要格式版本 4.8; 0.0 给出

我收到以下错误:incompatiblemarshalfileformat(can'tberead)formatversion4.8required;0.0given在这一行:从我的布局文件的这一部分:true%>true%>我以前从来没有遇到过这个问题,网上的解释对我来说太高级了,或者与制作游戏的人有关,我的项目是一个简单的rails应用程序,我昨天才开始。 最佳答案 您尝试过清算Assets吗?bundleexecrakeassets:clean然后重新编译:bundleexecrakeassets:precompile您是否以